智能论文笔记

AutoCAD: Automatically Generating Counterfactuals for Mitigating Shortcut Learning

Jiaxin Wen , Yeshuang Zhu , Jinchao Zhang , Jie Zhou , Minlie Huang

分类：人工智能 | 自然语言处理

2022-11-29

Recent studies have shown the impressive efficacy of counterfactually augmented data (CAD) for reducing NLU models' reliance on spurious features and improving their generalizability. However, current methods still heavily rely on human efforts or task-specific designs to generate counterfactuals, thereby impeding CAD's applicability to a broad range of NLU tasks. In this paper, we present AutoCAD, a fully automatic and task-agnostic CAD generation framework. AutoCAD first leverages a classifier to unsupervisedly identify rationales as spans to be intervened, which disentangles spurious and causal features. Then, AutoCAD performs controllable generation enhanced by unlikelihood training to produce diverse counterfactuals. Extensive evaluations on multiple out-of-domain and challenge benchmarks demonstrate that AutoCAD consistently and significantly boosts the out-of-distribution performance of powerful pre-trained models across different NLU tasks, which is comparable or even better than previous state-of-the-art human-in-the-loop or task-specific CAD methods. The code is publicly available at https://github.com/thu-coai/AutoCAD.

translated by 谷歌翻译

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

Yu Meng , Martin Michalski , Jiaxin Huang , Yu Zhang , Tarek Abdelzaher , Jiawei Han

分类：自然语言处理 | 机器学习

2022-11-06

Recent studies have revealed the intriguing few-shot learning ability of pretrained language models (PLMs): They can quickly adapt to a new task when fine-tuned on a small amount of labeled data formulated as prompts, without requiring abundant task-specific annotations. Despite their promising performance, most existing few-shot approaches that only learn from the small training set still underperform fully supervised training by nontrivial margins. In this work, we study few-shot learning with PLMs from a different perspective: We first tune an autoregressive PLM on the few-shot samples and then use it as a generator to synthesize a large amount of novel training samples which augment the original training set. To encourage the generator to produce label-discriminative samples, we train it via weighted maximum likelihood where the weight of each token is automatically adjusted based on a discriminative meta-learning objective. A classification PLM can then be fine-tuned on both the few-shot and the synthetic samples with regularization for better generalization and stability. Our approach FewGen achieves an overall better result across seven classification tasks of the GLUE benchmark than existing few-shot learning methods, improving no-augmentation methods by 5+ average points, and outperforming augmentation methods by 3+ average points.

translated by 谷歌翻译

Chatbots for Mental Health Support: Exploring the Impact of Emohaa on Reducing Mental Distress in China

Sahand Sabour , Wen Zhang , Xiyao Xiao , Yuwei Zhang , Yinhe Zheng , Jiaxin Wen , Jialu Zhao , Minlie Huang

分类：自然语言处理

2022-09-21

对心理健康支持的需求不断增长，强调了对话代理在全球和中国作为人类支持者的重要性。这些代理可以增加可用性并降低心理健康支持的相对成本。提供的支持可以分为两种主要类型：认知和情感支持。关于该主题的现有工作主要集中在采用认知行为疗法（CBT）原理的构造药物上。此类代理根据预定义的模板和练习来运行，以提供认知支持。但是，使用此类药物对情绪支持的研究是有限的。此外，大多数建设的代理商都以英语运作，强调了在中国进行此类研究的重要性。在这项研究中，我们分析了表情符疾病在减少精神痛苦症状方面的有效性。 Emohaa是一种对话剂，通过基于CBT的练习和指导性对话提供认知支持。它还通过使用户能够发泄所需的情绪问题来支持情感上的支持。该研究包括134名参与者，分为三组：Emohaa（基于CBT），Emohaa（Full）和控制。实验结果表明，与对照组相比，使用Emohaa的参与者在精神困扰症状方面的改善得到了更大的改善。我们还发现，添加情感支持剂对这种改善，主要是抑郁和失眠有互补的影响。根据获得的结果和参与者对平台的满意，我们得出结论，Emohaa是减少精神困扰的实用和有效工具。

translated by 谷歌翻译

Deepfake Face Traceability with Disentangling Reversing Network

Jiaxin Ai , Zhongyuan Wang , Baojin Huang , Zhen Han

分类：计算机视觉

2022-07-08

Deepfake面临的不仅侵犯了个人身份的隐私，而且会使公众感到困惑并造成巨大的社会伤害。当前的DeepFake检测仅保持在区分真和错误的水平上，并且无法追踪与假面相对应的原始真实面孔，也就是说，它没有能力追踪证据来源。司法取证的深层对策技术紧急要求具有深层可追溯性。本文提出了一个有趣的问题，即“知道它以及如何发生”的脸部深击，积极的取证。鉴于深冰面的面孔并不能完全丢弃原始面孔的特征，尤其是面部表情和姿势，我们认为可以大约从其深料对应物中推测原始面孔。相应地，我们设计了一个解开的倒车网络，该网络在假脸部的脸部样品的监督下解除了深泡面孔的潜在空间特征，以反向推断原始面孔。

translated by 谷歌翻译

Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation and Instance Generation

Jiaxin Huang , Yu Meng , Jiawei Han

分类：自然语言处理

2022-06-28

我们研究了很少的细粒实体键入（FET）的问题，其中只有几个带注释的实体对每种实体类型提供了上下文。最近，基于及时的调整通过将实体类型分类任务作为“填补空白”的问题来表明在几次射击方案中表现出优越的性能。这允许有效利用预训练的语言模型（PLM）的强语建模能力。尽管当前基于及时的调整方法成功了，但仍有两个主要挑战：（1）提示中的口头化器要么是由外部知识基础手动设计或构建的，而无需考虑目标语料库和标签层次结构信息，而且（2）当前方法主要利用PLM的表示能力，但没有通过广泛的通用域预训练来探索其产生的功率。在这项工作中，我们为由两个模块组成的几个弹药fet提出了一个新颖的框架：（1）实体类型标签解释模块自动学习将类型标签与词汇联系起来，通过共同利用几个播放实例和标签层次结构和标签层次结构，以及（2）基于类型的上下文化实例生成器根据给定实例生成新实例，以扩大培训集以更好地概括。在三个基准数据集上，我们的模型优于大量利润的现有方法。可以在https://github.com/teapot123/fine-graining-entity-typing上找到代码。

translated by 谷歌翻译

Mitigating barren plateaus of variational quantum eigensolvers

Xia Liu , Geng Liu , Jiaxin Huang , Hao-Kai Zhang , Xin Wang

分类：机器学习

2022-05-26

有望在近期量子计算机上建立有价值的应用程序。但是，最近的作品指出，VQA的性能极大地依赖于Ansatzes的表现性，并且受到优化问题（例如贫瘠的高原（即消失的梯度））的严重限制。这项工作提出了国家有效的ANSATZ（SEA），以改善训练性，以进行准确的基态制备。我们表明，海洋可以产生一个任意纯状态，其参数比通用的安萨兹少得多，从而使其适合基态估计等任务有效。然后，我们证明可以通过灵活地调节海洋的纠缠能力来有效地通过海洋有效地减轻贫瘠的高原，并可以最大程度地提高训练性。最后，我们研究了大量的示例，在基础状态估计中，我们在成本梯度和收敛速度的幅度上得到了显着改善。

translated by 谷歌翻译

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement

Bing Li , Jiaxin Chen , Dongming Zhang , Xiuguo Bao , Di Huang

分类：计算机视觉

2022-05-07

压缩视频动作识别最近引起了人们的注意，因为它通过用稀疏采样的RGB帧和压缩运动提示（例如运动向量和残差）替换原始视频来大大降低存储和计算成本。但是，这项任务严重遭受了粗糙和嘈杂的动力学以及异质RGB和运动方式的融合不足。为了解决上面的两个问题，本文提出了一个新颖的框架，即具有运动增强的细心跨模式相互作用网络（MEACI-NET）。它遵循两流体系结构，即一个用于RGB模式，另一个用于运动模态。特别是，该运动流采用带有denoising模块的多尺度块来增强表示表示。然后，通过引入选择性运动补充（SMC）和跨模式增强（CMA）模块来加强两条流之间的相互作用，其中SMC与时空上的局部局部运动相互补充，CMA和CMA进一步将两种模态与两种模态相结合。选择性功能增强。对UCF-101，HMDB-51和Kinetics-400基准的广泛实验证明了MEACI-NET的有效性和效率。

translated by 谷歌翻译

Deconfounded Visual Grounding

Jianqiang Huang , Yu Qin , Jiaxin Qi , Qianru Sun , Hanwang Zhang

分类：计算机视觉 | 自然语言处理

2021-12-31

我们专注于视觉接地管道语言与位置之间的混淆偏见，在那里我们发现偏差是主要的视觉推理瓶颈。例如，接地过程通常是一种琐碎的语言 - 位置关联，没有视觉推理，例如，将任何包含绵羊的语言查询接地到近中心区域，由于绵羊在图像中心的地面真实位置存在地面真相位置。首先，我们将视觉接地管道框架框成了因果图，其显示图像，查询，目标位置和底层混淆之间的因果关系。通过因果图，我们知道如何打破接地瓶颈：Deconfounded视觉接地。其次，为了解决混乱的挑战，即一般而言，我们提出了一种呼吁呼吁：引用表达式解构器（红色），以消除混淆偏差。第三，我们实施红色作为一种简单的语言关注，可以以任何接地方法应用。在流行的基准测试中，红色通过显着的边缘改善了各种最先进的接地方法。代码将很快提供：https://github.com/jianqiangh/deconfounded_vg。

translated by 谷歌翻译

UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery

Yecheng Huang , Jiaxin Chen , Di Huang

分类：计算机视觉

2021-12-20

本文提出了一种对无人机图像对象检测的新方法，即具有统一前景包装的多代理检测网络（UFPMP-DET）。要处理很多非常小的尺度的实例，与普通解决方案不同，将高分辨率输入图像分为相当多的芯片，以低前景比为每个芯片进行对它们进行检测，统一的前景包装（UFP）模块是设计的，在粗探测器给出的子区域最初通过聚类来合并以抑制背景，并且所得到的，随后将其包装成单个推理的马赛克，从而显着降低了整个时间成本。此外，为了解决级别间相似之处和类内的情况之间的困难，这使得劣化检测性能但很少讨论，呈现多代理检测网络（MP-DEC）以罚款模拟对象分布通过采用多个代理学习来实现的方式，通过最小化案例（BOIW）引导的最佳运输损失来强制执行代理。通过这种方式，UFPMP-DEC在很大程度上促进了检测精度和效率。在广泛使用的Vistone和UAVDT数据集中进行了广泛的实验，UFPMP-DID以更高的速度报告了新的最先进的分数，突出了其优点。

translated by 谷歌翻译

SPTS: Single-Point Text Spotting

Dezhi Peng , Xinyu Wang , Yuliang Liu , Jiaxin Zhang , Mingxin Huang , Songxuan Lai , Shenggao Zhu , Jing Li , Dahua Lin , Chunhua Shen

分类：计算机视觉

2021-12-15

几乎所有场景文本发现（检测和识别）方法依赖于昂贵的框注释（例如，文本线框，单词级框和字符级框）。我们首次证明培训场景文本发现模型可以通过每个实例的单点的极低成本注释来实现。我们提出了一种端到端的场景文本发现方法，将场景文本拍摄作为序列预测任务，如语言建模。给予图像作为输入，我们将所需的检测和识别结果作为一系列离散令牌制定，并使用自动回归变压器来预测序列。我们在几个水平，多面向和任意形状的场景文本基准上实现了有希望的结果。最重要的是，我们表明性能对点注释的位置不是很敏感，这意味着它可以比需要精确位置的边界盒更容易地注释并自动生成。我们认为，这种先锋尝试表明了场景文本的重要机会，比以前可能的比例更大的比例更大。

translated by 谷歌翻译